RLCSD: Aprendizaje por Refuerzo con Autodestilación Contrastiva en Política RLCSD mejora el razonamiento en modelos de IA al corregir la deriva de estilo inducida por privilegios. Descubre cómo supera a GRPO en tareas lógicas y matemáticas. 2026-06-11 · 2 min